智能论文笔记

A Survey on Table Question Answering: Recent Advances

Nengzheng Jin , Joanna Siebert , Dongfang Li , Qingcai Chen

分类：自然语言处理 | 人工智能

2022-07-12

表问题回答（表QA）是指从表中提供精确的答案来回答用户的问题。近年来，在表质量检查方面有很多作品，但是对该研究主题缺乏全面的调查。因此，我们旨在提供表QA中可用数据集和代表性方法的概述。我们根据其技术将现有的表质量质量质量检查分为五个类别，其中包括基于语义的，生成，提取，基于匹配的基于匹配的方法和基于检索的方法。此外，由于表质量质量质量检查仍然是现有方法的一项艰巨的任务，因此我们还识别和概述了一些关键挑战，并讨论了表质量质量检查的潜在未来方向。

translated by 谷歌翻译

VLDeformer: Vision-Language Decomposed Transformer for Fast Cross-Modal Retrieval

Lisai Zhang , Hongfa Wu , Qingcai Chen , Yimeng Deng , Zhonghua Li , Dejiang Kong , Zhao Cao , Joanna Siebert , Yunpeng Han

分类：计算机视觉 | 自然语言处理

2021-10-20

跨模型检索已成为仅限文本搜索引擎（SE）最重要的升级之一。最近，通过早期交互的成对文本图像输入的强大表示，Vision-Language（VL）变压器的准确性已经表现优于文本图像检索的现有方法。然而，当使用相同的范例来推理时，VL变压器的效率仍然太低，不能应用于真正的跨模型SE。通过人类学习机制和使用跨模型知识的启发，本文提出了一种新颖的视觉语言分解变压器（VLDEFormer），这大大提高了VL变压器的效率，同时保持了它们的出色准确性。通过所提出的方法，跨模型检索分为两个阶段：VL变压器学习阶段和VL分解阶段。后期阶段发挥单一模态索引的作用，这在某种程度上是文本SE的术语索引。该模型从早期交互预训练中学习跨模型知识，然后将其分解为单个编码器。分解只需要监督和达到1000美元+ $倍的小目标数据集，并且少于0.6美元\％平均召回。 VLDEFormer还优于COCO和FLICKR30K的最先进的视觉语义嵌入方法。

translated by 谷歌翻译

POLCOVID: a multicenter multiclass chest X-ray database (Poland, 2020-2021)

Aleksandra Suwalska , Joanna Tobiasz , Wojciech Prazuch , Marek Socha , Pawel Foszner , Jerzy Jaroszewicz , Katarzyna Gruszczynska , Magdalena Sliwinska , Jerzy Walecki , Tadeusz Popiela

分类：计算机视觉

2022-11-29

The outbreak of the SARS-CoV-2 pandemic has put healthcare systems worldwide to their limits, resulting in increased waiting time for diagnosis and required medical assistance. With chest radiographs (CXR) being one of the most common COVID-19 diagnosis methods, many artificial intelligence tools for image-based COVID-19 detection have been developed, often trained on a small number of images from COVID-19-positive patients. Thus, the need for high-quality and well-annotated CXR image databases increased. This paper introduces POLCOVID dataset, containing chest X-ray (CXR) images of patients with COVID-19 or other-type pneumonia, and healthy individuals gathered from 15 Polish hospitals. The original radiographs are accompanied by the preprocessed images limited to the lung area and the corresponding lung masks obtained with the segmentation model. Moreover, the manually created lung masks are provided for a part of POLCOVID dataset and the other four publicly available CXR image collections. POLCOVID dataset can help in pneumonia or COVID-19 diagnosis, while the set of matched images and lung masks may serve for the development of lung segmentation solutions.

translated by 谷歌翻译

Applications of statistical causal inference in software engineering

Julien Siebert

分类：人工智能

2022-11-21

This paper reviews existing work in software engineering that applies statistical causal inference methods. These methods aim at estimating causal effects from observational data. The review covers 32 papers published between 2010 and 2022. Our results show that the application of statistical causal inference methods is relatively recent and that the corresponding research community remains relatively fragmented.

translated by 谷歌翻译

Comparison of synthetic dataset generation methods for medical intervention rooms using medical clothing detection as an example

Patrick Schülein , Hannah Teufel , Ronja Vorpahl , Indira Emter , Yannick Bukschat , Marcus Pfister , Anke Siebert , Nils Rathmann , Steffen Diehl , Marcus Vetter

分类：计算机视觉

2022-09-23

从具有高隐私要求的领域（例如医疗干预空间）获得的真实数据较低，并且收购在法律上很复杂。因此，这项工作提供了一种以医疗服装为例为医疗环境创建合成数据集的方法。目的是缩小合成数据和真实数据之间的现实差距。为此，使用虚幻的引擎插件或Unity比较了3D扫描服装和设计服装的方法。此外，还使用了绿屏和目标域数据集的混合现实数据集。我们的实验表明，设计服装的结构性域随机化以及混合现实数据提供了基线，可在临床目标域的测试数据集上实现72.0％的地图。当使用15％可用的目标域列车数据时，针对100％（660张图像）目标域列车数据的差距几乎可以关闭80.05％的地图（81.95％地图）。最后，我们表明，当使用100％目标域训练数据时，精度可以提高到83.35％的地图。

translated by 谷歌翻译

Learn2Trust: A video and streamlit-based educational programme for AI-based medical image analysis targeted towards medical students

Hanna Siebert , Marian Himstedt , Mattias Heinrich

分类：计算机视觉

2022-08-15

为了能够在不怀疑的情况下使用人工智能（AI）在医学中，并认识到和评估其日益增长的潜力，在当前和未来的医务人员中，对该主题的基本理解是必要的。在“通过理解的信任”的前提下，我们在德国Ki校园（AI校园）项目框架内开发了创新的在线课程，这是一个自我指导的课程，它教授AI的基础知识进行分析医疗图像数据。主要目标是提供一个学习环境，以充分了解医学图像分析中的AI，以便通过积极的应用经验来克服对该主题的进一步兴趣，并可以克服对其使用的抑制。重点是医疗应用和机器学习的基础。在线课程分为连续的课程，其中包括以解释性视频的形式，以简化和实践练习和/或测验的形式进行的实践练习，以检查学习进度。在课程的第一次跑步中，参与医学生的一项调查用于定量分析我们的研究假设。

translated by 谷歌翻译

problexity -- an open-source Python library for binary classification problem complexity assessment

Joanna Komorniczak , Pawel Ksieniewicz

分类：机器学习

2022-07-14

分类问题的复杂性评估是监督学习领域许多主题的重要因素。它在元学习中起着重要的作用 - 成为确定元属性或多准则优化的基础 - 允许评估训练集进行重新采样而无需重建识别模型。目前可用于学术界可用的工具，该工具将可以计算问题复杂性度量，仅作为C ++和R语言的库可用。本文介绍了软件模块，该模块允许估算Python语言的22种复杂性度量 - 与Scikit-Learn编程界面兼容 - 允许在机器学习社区最受欢迎的编程环境中使用它们实施研究。

translated by 谷歌翻译

Probing the Robustness of Independent Mechanism Analysis for Representation Learning

Joanna Sliwa , Shubhangi Ghosh , Vincent Stimper , Luigi Gresele , Bernhard Schölkopf

分类： (统计)机器学习 | 人工智能 | 机器学习

2022-07-13

表示学习的目的之一是恢复生成数据的原始潜在代码，这是需要其他信息或归纳偏见的任务。最近提出的一种称为独立机制分析（IMA）的方法假定每个潜在来源应独立影响观察到的混合物，补充标准的非线性独立组件分析，并从独立的因果机制原理中汲取灵感。尽管在理论和实验中表明IMA有助于恢复真正的潜在潜在，但该方法的性能仅在确切满足建模假设时才得以表征。在这里，我们测试了该方法对违反基本假设的鲁棒性。我们发现，基于IMA的正规化恢复真实来源的好处扩展到与IMA原理不同程度的混合功能，而标准的正则化器不提供相同的优点。此外，我们表明，未注册的最大似然恢复了混合功能，这些功能系统地偏离了IMA原理，并提供了阐明基于IMA的正则化的好处的论点。

translated by 谷歌翻译

Visual Context-driven Audio Feature Enhancement for Robust End-to-End Audio-Visual Speech Recognition

Joanna Hong , Minsu Kim , Daehun Yoo , Yong Man Ro

分类：人工智能 | 计算机视觉

2022-07-13

本文着重于设计一种噪声端到端音频语音识别（AVSR）系统。为此，我们提出了视觉上下文驱动的音频功能增强模块（V-Cafe），以在视听通讯的帮助下增强输入噪声音频语音。所提出的V-Cafe旨在捕获唇部运动的过渡，即视觉上下文，并通过考虑获得的视觉上下文来产生降噪面膜。通过与上下文相关的建模，可以完善掩模生成Viseme-to-phoneme映射中的歧义。嘈杂的表示用降噪面膜掩盖，从而增强了音频功能。增强的音频功能与视觉特征融合在一起，并将其带入由构象异构体和变压器组成的编码器模型，以进行语音识别。我们显示了带有V-fafe的端到端AVSR，可以进一步改善AVSR的噪声。使用两个最大的视听数据集LRS2和LRS3评估了所提出方法的有效性。

translated by 谷歌翻译

Disentangling visual and written concepts in CLIP

Joanna Materzynska , Antonio Torralba , David Bau

分类：计算机视觉

2022-06-15

剪辑网络衡量自然文本和图像之间的相似性；在这项工作中，我们研究了其图像编码器中单词图像和自然图像的表示的纠缠。首先，我们发现图像编码器具有将单词图像与这些单词描述的场景的自然图像匹配的能力。这与先前的研究一致，该研究表明，单词的含义和拼写可能会纠缠在网络内。另一方面，我们还发现剪辑具有强大的匹配无意义单词的能力，这表明字母的处理与其含义的处理分开。为了明确确定剪辑的拼写能力是否可分离，我们设计了一个步骤来识别代表子空间，这些子空间有选择地隔离或消除拼写功能。我们根据一系列检索任务进行基准测试方法，并通过测量夹子引导的生成图像中的文本外观进行测试。我们发现我们的方法能够与自然图像的视觉处理清晰地分开剪辑的拼写功能。

translated by 谷歌翻译